數據標記主要是幫助模型可以判斷「這個資料他說代表的真實意思」,因為有些資料他其實是相對主管的,或是模型他是沒辦法辨識的,以一些常見了例子來說像是「圖片」
裡面有吉娃娃也有杯子蛋糕,我們可以一看就知道,但對機器學習模型來說他就是「棕色的東西搭配三顆黑點」,因此需要我們手動來進行數據標記才可以幫助模型理解這是什麼
再來就是「主觀」的資訊,主觀就代表裡面有人自己的情感,這不是單從文字就可以感受得出來的。舉例來說像是「好啊」、「好啊~」、「好啊….」這三種雖然都是好啊,但看起來心情應該不會是相同的對嗎?
因此你需要手動幫 AI 標記這些資料代表什麼意思,他才可以知道差異該怎麼判斷,對於後續的訓練也會有幫助。
以我們這次的訓練資料「房價預測」其實就不用進行數據標記,因為我們的資料包含了我們需要判斷的數據像是「地點」、「坪數」、「房價」、「房齡」,這四個就可以幫助我進行預測,且這些資料都是相對客觀不會被主觀影響,因此就不會有需要另為人工標記的問題。
因此後續當你在訓練你的 AI 時,記得思考「你現在要做的事情是否會被主觀思維影響?」以及「訓練模型是否可以清楚理解每個資料是什麼?」,這樣就可以提升模型的精確性了!
那因為我們的訓練過程不用這一步驟,我們就繼續往下一步前進,換進行「數據集劃分」!